我们研究了在确认临床试验期间适应从给定治疗中受益的患者亚群的问题。这种自适应临床试验通常被称为自适应富集设计,已在生物统计学中进行了彻底研究,重点是构成(子)种群的有限数量的亚组(通常为两个)和少量的临时分析点。在本文中,我们旨在放宽对此类设计的经典限制,并研究如何从有关自适应和在线实验的最新机器学习文献中纳入想法,以使试验更加灵活和高效。我们发现亚种群选择问题的独特特征 - 最重要的是,(i)通常有兴趣在预算有限的情况下找到具有任何治疗益处的亚群(不一定是最大效果的单个亚组),并且(ii)(ii)在整个亚种群中只能证明有效性 - 在设计算法解决方案时引起了有趣的挑战和新的Desiderata。在这些发现的基础上,我们提出了Adaggi和Adagcpi,这是两个用于亚群构造的元算法,分别侧重于确定良好的亚组和良好的综合亚群。我们从经验上研究了它们在一系列模拟方案中的性能,并获得了对它们在不同设置的(DIS)优势的见解。
translated by 谷歌翻译
在许多领域,建模代理对一组替代方案的偏好是主要问题。主要的方法是找到一个单一的奖励/效用功能,其属性是替代奖励比产生较低奖励的替代方案所优选的。但是,在许多情况下,偏好是基于多个,经常竞争的目标。单个奖励功能不足以代表此类偏好。本文提出了一种推断代理观察到的偏好的多目标奖励表示的方法。我们将代理在不同目标上的优先级建模为输入词典,因此,仅当代理关于较高优先级的目标无动于衷时,优先级较低的目标就很重要。我们提供了两个受癌症治疗启发的医疗保健中的示例申请,另一种是受器官移植的启发,以说明我们学到的词典订购的奖励如何可以更好地了解决策者的偏好,并在加强加固时帮助改善政策学习。
translated by 谷歌翻译
通过观察自己的行为来了解决策者的优先事项对于在医疗保健等决策过程中的透明度和问责制至关重要。尽管传统的政策学习方法几乎总是假定行为的平稳性,但在实践中几乎不正确:随着临床专业人员随着时间的流逝,医学实践不断发展。例如,随着医学界对器官移植的理解多年来的发展,一个相关的问题是:实际的器官分配政策如何发展?为了给出答案,我们希望采用一种政策学习方法,该方法提供了可解释的决策代表,尤其是捕获代理商对世界的非统计知识,并以离线方式运作。首先,我们将决策者的不断发展的行为对上下文的强盗进行了建模,并正式化了背景匪徒(ICB)的问题。其次,我们提出了两种混凝土算法作为解决方案,学习代理行为的学习参数和非参数表示。最后,使用真实和模拟数据进行肝移植,我们说明了我们方法的适用性和解释性,以及基准测试并验证其准确性。
translated by 谷歌翻译